视频可访问性对于盲人和低愿景用户来说至关重要,以获得教育,就业和娱乐的公平参与。尽管有专业和业余服务和工具,但大多数人类生成的描述都很昂贵且耗时。此外,人生成的描述的速率不能匹配视频产生的速度。为了克服视频可访问性的越来越多的空白,我们开发了两个工具的混合系统到1)自动生成视频的描述,2)提供响应于视频上的用户查询的答案或附加描述。与26例盲和低视力下的混合方法研究结果表明,当两种工具在串联中使用时,我们的系统会显着提高用户理解和享受所选视频的理解和享受。此外,参与者报告说,在呈现自生物的描述与人类修订的自动化描述相关时,没有显着差异。我们的结果表明了对发达系统的热情及其承诺提供对视频的定制访问。我们讨论了当前工作的局限性,并为自动视频描述工具的未来发展提供了建议。
translated by 谷歌翻译
Although most reinforcement learning research has centered on competitive games, little work has been done on applying it to co-operative multiplayer games or text-based games. Codenames is a board game that involves both asymmetric co-operation and natural language processing, which makes it an excellent candidate for advancing RL research. To my knowledge, this work is the first to formulate Codenames as a Markov Decision Process and apply some well-known reinforcement learning algorithms such as SAC, PPO, and A2C to the environment. Although none of the above algorithms converge for the Codenames environment, neither do they converge for a simplified environment called ClickPixel, except when the board size is small.
translated by 谷歌翻译
The dual-encoder has become the de facto architecture for dense retrieval. Typically, it computes the latent representations of the query and document independently, thus failing to fully capture the interactions between the query and document. To alleviate this, recent work expects to get query-informed representations of documents. During training, it expands the document with a real query, while replacing the real query with a generated pseudo query at inference. This discrepancy between training and inference makes the dense retrieval model pay more attention to the query information but ignore the document when computing the document representation. As a result, it even performs worse than the vanilla dense retrieval model, since its performance depends heavily on the relevance between the generated queries and the real query. In this paper, we propose a curriculum sampling strategy, which also resorts to the pseudo query at training and gradually increases the relevance of the generated query to the real query. In this way, the retrieval model can learn to extend its attention from the document only to both the document and query, hence getting high-quality query-informed document representations. Experimental results on several passage retrieval datasets show that our approach outperforms the previous dense retrieval methods1.
translated by 谷歌翻译
FP8是加速深度学习训练推论以外的16位格式的自然发展。在本文中,我们提出了一个8位浮点(FP8)二进制互换格式,该格式由两个编码组成-E4M3(4位指数和3位Mantissa)和E5M2(5位指数和2位指数和2位Mantissa)。尽管E5M2遵循IEEE 754惯例代表特殊值的惯例,但E4M3的动态范围是通过不代表无限态,只有一个Mantissa Bit-Pattern来扩展NAN。我们证明了FP8格式对各种图像和语言任务的功效,从而有效地匹配了16位培训课程所达到的质量。我们的研究涵盖了主要的现代神经网络体系结构 - CNN,RNN和基于变压器的模型,使所有超参数与16位基线训练课程保持不变。我们的培训实验包括大型,最多175b参数,语言模型。我们还检查了使用16位格式训练的语言模型的FP8训练后定量化,该格式抗拒固定点INT8量化。
translated by 谷歌翻译
在各种下游机器学习任务中,多元时间序列的可靠和有效表示至关重要。在多元时间序列预测中,每个变量都取决于其历史值,并且变量之间也存在相互依存关系。必须设计模型以捕获时间序列之间的内部和相互关系。为了朝着这一目标迈进,我们提出了时间序列注意变压器(TSAT),以进行多元时间序列表示学习。使用TSAT,我们以边缘增强动态图来表示多元时间序列的时间信息和相互依赖性。在动态图中的节点表示,串行中的相关性表示。修改了一种自我注意力的机制,以使用超经验模式分解(SMD)模块捕获序列间的相关性。我们将嵌入式动态图应用于时代序列预测问题,包括两个现实世界数据集和两个基准数据集。广泛的实验表明,TSAT显然在各种预测范围内使用六种最先进的基线方法。我们进一步可视化嵌入式动态图,以说明TSAT的图形表示功能。我们在https://github.com/radiantresearch/tsat上共享代码。
translated by 谷歌翻译
图形着色是一个经典且关键的NP硬性问题,是分配尽可能不同颜色的连接节点的问题。但是,我们观察到,最新的GNN在图形着色问题中不太成功。我们从两个角度分析原因。首先,大多数GNN都无法将任务概括为同质性的任务,即在其中分配了不同颜色的图形。其次,GNN受网络深度的界定,使其成为一种本地方法,在最大独立集(MIS)问题中已证明这是非最佳选择的。在本文中,我们专注于流行的GNN类的聚合 - 结合GNNS(AC-GNNS)。我们首先将AC-GNN在着色问题中的功能定义为分配节点不同颜色的能力。该定义与以前的定义不同,该定义是基于同质的假设。我们确定了AC-GNN无法区分的节点对。此外,我们表明任何AC-GNN都是本地着色方法,并且任何局部着色方法都是通过稀疏随机图探索局部方法的极限,从而证明了AC-GNN的非典型性财产。然后,我们证明了模型深度与其着色能力之间的正相关。此外,我们讨论了图形的颜色模棱两可,以应对一些实际约束,例如预固化约束。在上面的讨论之后,我们总结了一系列规则一系列规则,这些规则使GNN颜色均等且功能强大。然后,我们提出了满足这些规则的简单AC-GNN变化。我们从经验上验证了我们的理论发现,并证明我们的简单模型在质量和运行时都大大优于最先进的启发式算法。
translated by 谷歌翻译
内窥镜立体视频的机器人手术中软组织的重建对于许多应用非常重要,例如术中导航和图像引导的机器人手术自动化。此任务的先前工作主要依赖于基于SLAM的方法,这些方法难以处理复杂的手术场景。受神经渲染的最新进展的启发,我们提出了一个新颖的框架,用于在单视图设置下从机器人手术中的双眼捕获中进行可变形的组织重建。我们的框架采用动态神经辐射场,以表示MLP中的可变形外科手术场景,并以基于学习的方式优化形状和变形。除了非刚性变形外,从单个角度来看,工具阻塞和差的3D线索也是软组织重建的特殊挑战。为了克服这些困难,我们提出了一系列工具掩模引导的射线铸造,立体声深度提示射线行进和立体声深度避免优化的策略。通过关于Davinci机器人手术视频的实验,我们的方法显着优于处理各种复杂非刚性变形的当前最新重建方法。据我们所知,这是利用神经渲染的第一批作品,用于手术场景3D重建,具有显着的潜力。代码可在以下网址获得:https://github.com/med-air/endonerf。
translated by 谷歌翻译
可以从金融新闻文章中获取的主要信息来源,这些文章与股票趋势的波动有一些相关性。在本文中,我们从多个现实的观点研究了金融新闻对股票趋势的影响。其背后的直觉是基于新闻事件不同间隔的新闻不确定性以及每个金融新闻中缺乏注释的新闻不确定性。在多个实例学习(MIL)的情况下,将培训实例安排在袋子中,并为整个袋子而不是实例分配标签,我们开发了一种灵活且适应性的多态度学习模型,并评估其在方向运动预测中的能力《金融新闻数据集》中的标准和POORS 500指数。具体来说,我们将每个交易日视为一个袋子,每个交易日都会发生一定数量的新闻作为每个袋子的情况。实验结果表明,与其他最先进的方法和基准相比,我们提出的基于多实体的框架在趋势预测的准确性方面获得了出色的结果。
translated by 谷歌翻译
While preference modelling is becoming one of the pillars of machine learning, the problem of preference explanation remains challenging and underexplored. In this paper, we propose \textsc{Pref-SHAP}, a Shapley value-based model explanation framework for pairwise comparison data. We derive the appropriate value functions for preference models and further extend the framework to model and explain \emph{context specific} information, such as the surface type in a tennis game. To demonstrate the utility of \textsc{Pref-SHAP}, we apply our method to a variety of synthetic and real-world datasets and show that richer and more insightful explanations can be obtained over the baseline.
translated by 谷歌翻译
从制造环境到个人房屋的最终用户任务的巨大多样性使得预编程机器人非常具有挑战性。事实上,教学机器人从划痕的新行动可以重复使用以前看不见的任务仍然是一个艰难的挑战,一般都留给了机器人专家。在这项工作中,我们展示了Iropro,这是一个交互式机器人编程框架,允许最终用户没有技术背景,以教授机器人新的可重用行动。我们通过演示和自动规划技术将编程结合起来,以允许用户通过通过动力学示范教授新的行动来构建机器人的知识库。这些行动是概括的,并重用任务计划程序来解决用户定义的先前未经调查的问题。我们将iropro作为Baxter研究机器人的端到端系统实施,同时通过演示通过示范来教授低级和高级操作,以便用户可以通过图形用户界面自定义以适应其特定用例。为了评估我们的方法的可行性,我们首先进行了预设计实验,以更好地了解用户采用所涉及的概念和所提出的机器人编程过程。我们将结果与设计后实验进行比较,在那里我们进行了用户学习,以验证我们对真实最终用户的方法的可用性。总体而言,我们展示了具有不同编程水平和教育背景的用户可以轻松学习和使用Iropro及其机器人编程过程。
translated by 谷歌翻译